#reward hacking

HARVE: Edición de Vector de Recompensa para Robustez ante Hacking

Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.

2026-06-03 · 2 min

Guía por recompensa en modelos de flujo y difusión: ¿realmente inclinamos?

El reward hacking en difusión proviene de la estimación finita de la función h. Proponemos una corrección sin costo y aclaramos el best-of-n.

2026-06-03 · 3 min

Cuando RLHF falla: taxonomía de reward hacking, colapso y manipulación

Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.

2026-06-03 · 2 min